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基于 影响 度 及 状态 预测 的 多 agent 协作 算法 
郑 延 斌 ， 马 光 富 ， 王 林 林 ， 席 月 雪 


(河南 师范 大 学 计算 机 与 信息 工程 学 院 , 河南 新 乡 453007) 


摘 要 : 针对 灾难 环境 中 多 agent 协作 问题 进行 了 研究 ， 提 出 了 一 种 基于 影响 度 与 状态 预测 的 多 Agent 协作 算法 。 首 

先 该 算法 根据 协作 任务 对 信息 的 需求 ， 使 用 影响 度 函 数 对 agent 感知 到 的 信息 进行 处 理 ; 其 次 利用 预测 算法 对 任务 的 

后 续 状 态 和 agent 的 行为 进行 预测 并 根据 预测 结果 制定 协作 策略 ; 最 后 执行 协作 任务 的 agent 根据 动作 效果 和 和 触发 条 件 
态 调整 协作 策略 。 为 了 验证 算法 的 有 效 性 ， 在 Unity3D 中 搭建 仿真 平台 ， 对 比 不 同 协作 算法 的 收 化 窑 、 救 援 人 数 和 

整体 得 分 ， 结 果 表 明 该 算法 的 收敛 速度 快 、 救 援 人 数 多 和 整体 得 分 最 优 ， 可 以 效 地 指导 agent 间 的 协作 ， 能 给 实际 救 

援 协作 策略 的 制定 提供 理论 支持 。 
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Multi-agent cooperation rescue algorithm based on influence degree and state prediction 


| Zheng Yanbin, Ma Guangfu, Wang Linlin, Xi Pengxue 
(College of Computer & Information Engineering Henan Normal University, Xinxiang Henan 453007, China) 


Abstract: Aiming at the problem of multi-agent cooperation in disaster environment, a multi-agent cooperation algorithm 


based on influence and state prediction is proposed. Firstly, the algorithm uses the influence degree function to process the 


information perceived by the Agent based on the information requirements of the collaborative task. Secondly, the predictive 


algorithm is used to predict the subsequent state of the task and the behavior of the agent, and a collaborative strategy is 


formulated based on the prediction result. Finally, the Agent performing the collaborative task dynamically adjusts the 


collaboration strategy according to the action effect and the trigger condition. In order to verify the effectiveness of the 


algorithm, a Simulation platform was built in Unity3D to compare the convergence rate, the number of rescuers, and the 
overall score of different collaborative algorithms. The results show that the algorithm has the faster convergence speed, the 
better number of rescuers and the higher of overall score, which can effectively guide the collaboration between Agents and 
provide theoretical support for the development of practical rescue coordination strategies. 
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一 种 预测 系统 并 应 用 到 多 agent 的 协作 中 ， 该 系统 将 遗传 算法 
和 进化 论 相 结合 ， 通 过 计算 环境 的 变化 对 agent 的 进化 过 程 进 

多 agent 系统 (mnulti-agent system, MAS ) 是 分 布 式 人 工 智 。 行 预测 ， 当 环境 出 现 突变 时 此 算法 无 法 完成 相关 预测 。 文 献 [7] 
能 领域 研究 的 热点 , 目前 动态 环境 下 多 agent 协作 是 MAS 研究 。 通过 对 个 体 的 意图 、 行 为 动作 等 进行 识别 和 预测 进而 得 到 群体 
的 核心 问题 之 一 中。 如 文献 [和 提出 了 一 种 适用 于 海港 防护 的 。” ”的 联合 意图 、 行 为 动作 等 ， 并 为 协作 策略 的 制定 提供 有 利 的 支 
多 agent 分 散 部 署 策略 ， 在 信息 噪声 大 和 通信 间断 的 情况 下 实 。 持 ， 但 其 忽视 了 环境 变化 对 个 体 行为 动作 的 影响 。 国 内 学 者 如 
现 了 agent 的 调度 、 部 署 、 拦 截 导弹 攻击 等 任务 ， 但 此 算法 对 ”文献 [8] 对 MA-PDDL 进行 了 改进 , 在 语言 中 加 入 了 连续 规划 元 
快速 变化 信息 的 处 理 效率 较 低 。 文 献 [3] 使 用 蒙特 卡 洛 树 搜索 算 。 素 ， 提 出 了 一 种 基于 连续 规划 的 协作 算法 ， 该 算法 避免 了 协作 
法 实现 无 人 机 直接 的 协作 ， 该 算法 通过 计算 邻居 结 点 的 值 构建 ”过程 中 因 环境 改变 而 导致 任务 失败 的 情况 ， 但 是 agent 在 执行 
关系 图 并 根据 奖励 函数 制定 联合 动作 ， 当 结 点 关系 发 生 突变 时 ”动作 前 都 要 更 新 系统 环境 ， 其 时 间 花 费 过 大 。 文 献 [9,10] 通 过 融 
将 降低 算法 的 性 能 可 能 导致 协作 任务 无 法 完成 。 文 献 [6] 提 出 了  ” 合 系 统 对 环境 信息 进行 处 理 与 合成 得 到 目标 的 综合 状态 ,agent 
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as ,进行 加 工 处 理 将 
同一 时 刻 可 能 存在 多 个 
些 信息 或 接收 错误 的 


办 作 任务 的 后 续 ; 
1+ 开 时 刻 的 相关 ; 


圣 全 部 接收 信息 时 一 方面 提 


的 时 间 ， 男 一 方面 这 些 信 


FE 协作 策略 和 个 体 动作 的 正确 
任务 的 发 展 过 程 进行 及 时 准确 的 预测 。 
的 预测 技术 已 十 分 成 熟 ， 但 他 


影响 度 函 数 对 协作 信息 
E 确 度 的 同时 减少 了 个 体 间 发 送 和 接 


二 


当前 对 个 体 行为 和 动作 
少 有 效 的 方法 对 任务 和 环境 的 发 


月 式 (7) - 


保存 ; 


\ 体 信息 ， 


性 ， 算 法 必须 能 


为 此 提出 一 种 新 的 预测 算法 


结果 制定 协 


= f(X,,U,,)+(0xT) 
p pe nik 
p=f (X11) 


Pid 


大 


So 一 站” 
= 一 -一 
N 


大 态 Cr 


缓存 中 的 信息 X,, 和 系统 当前 状态 ww 作为 状态 预测 函数 
天 态 、 环 境 变化 、 个 体 行为 等 
。 状 态 预 测 主 要 函 


(13) 
(14) 
(15) 


(16) 


(17) 


， 首 先 
展 趋势 、 个 体 的 行为 、 环 境 的 变 
作 策略 。 其 次 计算 动 
sa we 
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其 中 : p 为 系统 的 预测 


表示 误差 值 ， 


预测 函数 10 针 


算法 开始 : 
1. 输 入 缓存 


状态 预测 的 主要 算法 如 下 : 


D 的 信 息 XX, 和 Us ? 执行 2; 


值 ,p 为 1+ 开 时 刻 系统 的 实测 值 , |p 一 | 
巨 表示 前 丰 个 时 刻 误差 的 平均 值 ，6 为 别 除 N 
个 较 大 误差 值 后 的 标准 误差 。 
个 体 其 定义 不 同 。 


对 不 同 的 事件 或 


2. 是 用 式 (14) 和 15) 获取 前 tk 个 时 刻 的 预测 值 和 实测 


值 ， 算 出 其 误差 


值 | p -p|， 执 行 3; 


3. 求 出 前 个 时 刻 误差 的 平均 值 互 ， 执 行 4; 


4. 剔 除 偏离 习 


FE 均 误差 较 大 的 预测 值 ， 执 行 


5: 


5. 求 出 剩余 入 个 误差 值 的 标准 差 5， 执 行 6; 


6. 调 用 式 (1 
内 的 近似 状态 
算法 结束 


py 


3) 得 到 状态 Vis ; // 此 状态 


是 一 定 误差 范 转 


ey 


剔除 误差 较 大 的 值 主 要 是 防止 一 些 异 常 时 刻 的 预测 值 对 预 
测 结果 的 影响 。 状 态 预 测算 法 根据 上 述 原 则 得 到 个 体 、 任 务 、 


环境 等 的 后 续 状 态 wr 。1 
协作 产生 影响 ， 因 此 正确 高 效 的 协作 策 
动作 ， 确 保 协作 任务 的 顺利 进行 至 关 习 


缺少 的 一 部 分 。 
3 ”协作 策略 


于 环境 、 个 体 动作 


各 对 Agent 做 出 合 


、 行 为 等 都 会 对 
Cn 的 


ut\ 


要 ， 是 


要 保证 Agent 高 效 的 完成 协作 
程 ， 为 救援 行动 的 顺利 开展 创造 条 件 。 
法 的 研究 较为 成 熟 [15]， 
于 灾难 协作 救援 ， 该 算法 使 用 触 
进行 动态 调整 ， 避 免 任 务 出 现 死 锁 使 其 适用 于 


类 使 算法 适 ) 


3.1 策略 制定 


发 现任 务 的 搜索 agent 首先 使 用 


王 务 ， 需 一 
目前 对 


个 体 间 协作 不 可 


套 完善 的 协作 流 
多 agent 协作 算 


本 文 在 现 有 协作 算法 


基础 上 加 入 触发 


发 类 对 协作 策略 


灾难 协作 救援 。 


信息 筛选 


任务 密切 相关 的 信息 并 保存 ， 其 次 使 用 预测 算 
续 状 态 。 搜 索 agent 将 筛选 出 的 信息 、 当 前 状 


传递 给 总 指挥 agent， 


已 根 据 现 有 


的 协作 策略 并 将 其 发 给 团队 指挥 和 协作 agent。 
agent 根据 当前 信息 选取 合适 的 动作 , 执行 后 需 


评价 并 判断 是 否 


达到 触发 条 件 。 协 作 流程 图 如 
触发 类 中 根据 不 同 的 问题 设置 对 应 的 触发 条 件 ，agent 在 
执行 任务 的 过 程 中 达到 触发 条 件 就 对 协作 策略 
进行 调整 。 触 发 条 件 主 要 分 为 三 类 : 第 一 类 主 


任务 点 的 过 程 中 遇 到 问题 如 清 障 时 间 延 长 、 受 


援 车 辆 


出 锚 等 问题 进行 规划 ; 第 二 类 是 针对 协 


如 任务 量变 化 、] 


不 境 变 化 、 


个 体 间 出 现 冲 突 等 。 


算法 得 到 与 协作 
法 得 到 任务 的 后 


态 、 预 测 状态 等 


言 息 确定 协作 团队 、 制 定 初步 


接受 协作 请 求 的 
对 动作 效果 进行 
图 2 所 示 。 


、 动 作 、 团 队 等 
要 对 agent 前 往 
到 意外 损伤 、 救 
作 过 程 中 的 问题 
第 三 类 主要 为 


解决 团队 间 的 资源 、 时 间 、 空 间 等 冲突 进行 的 规划 。 


3.2 代价 函数 


空 闪 个体 根 据 相 关 信息 计算 完成 任务 的 预 


Cost 值 选择 是 否 接受 协作 


期 代价 ， 并 根据 


王 务 ， 代 价 函 数 如 式 (13) 所 示 。 


t=s 
B,(T)= 2 B,D*x, 
t=1 


; 


P 个 体 i 放 弃 任 务 j 
1 个 体 i 完 成 任务 j 


iv 合作 期 书 
培 罗 作 } . 天 法 


a 


(18) 


代价 函数 是 指 个 体 i 在 完成 任务 j 的 过 程 中 消耗 的 能 


Bj(t) 为 个 体 在 1 时 刻 执行 选 定 动作 需 消耗 的 能 力 值 ，B;(7) 为 
完成 协作 任务 的 预期 代价 值 。 
Cost=A-B,(7) 


其 中 4 为 第 i 个 Agent 的 现 


康 值 


(19) 


定 其 完成 任务 的 能 


力 ，Cost 表示 个 体 完 协作 任务 预期 剩余 健康 值 。 当 Cost<20 时 


表示 个 体 在 执行 任务 时 受到 严重 伤害 ， 


放弃 协 


能 力 。 当 时 Cost>20 时 个 体 接受 任务 加 入 世 
Cost = A —[B,(T) + s(D] 


该 式 


受到 的 突 发 伤害 ，Cost 表示 个 体 完 成 规定 动作 后 剩余 的 健 月 
值 ，B;(7)+s(?) 表示 完成 动作 和 


来 对 动作 代价 进行 计算 , s(D 代 表 Agent 执行 动作 时 


芷 任务 且 须 补充 


外 作 团 队 。 


(20) 


2, 个 体 故 意 放弃 任务 j 


R=40, 个 体 i 受 伤 退出 任务 j 


R 作为 奖赏 值 ， 系 统 根据 Agent 完成 任务 的 


1, 个 体 i 完 成 任务 


的 实际 代价 值 。 


(21) 


| 


\ 体 情况 返 


给 Agent 对 应 的 值 ， 总 指挥 Agent 选择 当前 系统 内 R 最 大 的 空 


闲 个 体 作为 团队 指挥 。 
环境 信息 | 
搜索 
Agent 
相 关 信 已 
与 状态 
总 指 挥 | 
Agent 可 
J 信息 
协作 团队 必 队 
策略 站 挥 成 员 
无 对 应 加 入 是 Cost> 一 
动作 团队 ~ 
-各 行 、 
年 | | 内 部 Y 
Re 调整 动作、 
“Le 内 、。 影 明 大 效果/ 
规划 J 影响 分 
在 本 
确定 角 发 、 
类 型 个 是 站 类 / 
El 
完成 
任务 
图 2 协作 流程 


3.3 动作 效果 


个 体 完 成 动作 后 需 对 其 产生 的 效果 进行 评价 ， 
吉 果 修改 协作 策略 ， 消 解 协 


个 
赴 述 动作 。 
定义 1 


体 ，Q 为 前 提 条 


前 提 条 们 


定义 2 


动作 O 是 三 元 旨 


站 


件 集 ，E 为 动作 收益 。 


FE 过 程 中 产生 的 冲突 。 


根据 评价 
采用 三 元 组 


日 <A，Q，E> ，A 为 执行 动作 的 个 


F Q 是 五 元 组 <I，O，S，G，U>, I 为 初 


E 革 月 二 || 
aXiv 合 作 期 二 
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台 状态 即 UV, ，O 为 个 体 的 动作 和 集 ，S 为 动作 的 相关 约束 条 件 ， 预期 代价 值 ， 当 cost<20 时 放弃 当前 任务 并 将 结果 返回 给 总 指 
G 为 执行 选 定 动作 产生 的 新 状态 ，U 为 预测 的 状态 即 wz 。 挥 agent， 执 行 b); 否则 加 入 协作 团队 ， 执 行 k) ; 
动作 效果 的 评价 分 为 两 部 分 ， 使 用 式 〈20) 计算 完成 动作 k) 团队 指挥 agent 接收 协作 策略 ， 并 将 策略 发 送 给 接受 任 
的 实际 代价 值 ; 主要 是 比较 差 值 |G -U| 与 标准 误差 6 的 大 小 关 ” 务 的 个 体 ， 执 行 1) ; 
系 ， 进 而 得 到 其 对 任务 、 其 他 个 体 、 环 境 等 产生 的 影响 ， 并 根 1) Agent 按照 协作 策略 选取 动作 集中 的 动作 并 执行 ， 完 成 
据 影响 大 小 修改 策略 。 对 动作 效果 进行 评价 的 主要 算法 如 下 : 动作 后 使 用 算法 对 动作 的 效果 进行 评价 ， 当 其 影响 值 较 小 时 执 
算法 开始 : 行 0)， 否 则 执行 @; 
a) 根据 I 和 S 以 及 策略 等 信息 选择 动作 O， 执 行 2; m) 当 其 满足 队 内 调整 时 则 执行 n) ， 否 则 返回 h); 
b) 执行 动作 O， 调 用 公式 (19) 当 受 到 意外 伤害 且 n) 进行 队 内 调整 ， 并 更 新 动作 集 执行 0) ; 
Cost <20 时 则 放弃 当前 任务 并 反馈 当前 信息 修改 策略 ， 和 否则 o) 判断 是 否 达到 触发 条 件 ， 若 达到 触发 条 件 则 执行 m) ， 否 
获取 当前 状态 G 执行 3; 则 执行 p); 
c) 当 |G -U]> 5 时 执行 4， 否则 执行 7; P) 完 成 任务 agent 获得 奖赏 值 R 执行 q)， 否 则 执行 1) ; 
d) 获取 具体 的 影响 信息 ， 执 行 5; q)Agent 将 现 有 状态 发 送 给 总 指挥 Agent, 若 达 到 结束 条 件 
e) 满足 队 内 调整 则 执行 6， 否则 执行 8; 则 执行 ?)， 否 则 接受 新 任务 执行 j); 
f) 队 内 调整 并 规划 新 动作 ， 若 动作 集 满足 要 了 ) 仿 真 结束 ， 清 除 场景 中 和 缓存 中 的 信息 。 
求 则 执行 8， 否 则 执行 7; 该 协作 算法 首先 使 用 影响 度 对 信息 进行 处 理 降低 了 系统 的 
中 若 不 满足 要 求 则 修改 策略 更 新 动作 集 ; 通信 量 同 时 提高 了 信息 的 准确 性 ， 其 次 状态 预测 函数 使 用 缓存 
h) 若 任务 未 完成 则 选取 新 动作 执行 1， 否则 执行 9; 中 的 信息 得 到 系统 的 后 续 状 态 ， 并 根据 预测 结果 制定 协作 策略 
iD 完成 任务 ， 动 作 评 价 结束 ; 指导 个 体 的 协作 行为 ， 最 后 利用 触发 类 和 动作 评价 实现 协作 的 
算法 结 动态 调整 ， 保 证 了 策略 的 高 效 性 。 
通过 该 算法 对 动作 的 效果 进行 评价 ， 在 保证 动作 集 正 确 性 


5 ”实验 仿真 与 分 析 


的 前 提 下 实现 了 对 协作 策略 的 动态 调整 ， 避 免 因 策略 更 新 过 慢 


对 任务 或 个 体 产 生 影响 ， 提 高 任务 的 执行 效率 。 5.1 场景 建 模 
本 文 在 500m*500m 的 灾难 场景 (如 图 3) 中 模拟 个 体 间 的 
4 ”协作 救援 算 
协作 救援 工法 协作 过 程 并 对 所 提 算 法 的 性 能 进行 验证 ， 场 景 中 模型 信息 和 作 


于 灾难 救援 任务 具有 复杂 多 变 的 特性 且 单 个 agent 的 能 。 用 如 表 1 所 示 。 


力 有 限 ， 因 此 需要 多 个 agent 相互 协作 共同 完成 救援 任务 ， 最 四国 
大 限度 减 小 灾难 带 来 的 损失 。 此 时 支持 个 体 间 高 效 协作 的 救援 Go 
算法 就 显得 尤为 重要 ， 本 系统 中 救援 智能 体 间 协 作 算法 如 下 ， 
a) 搜 索 agent 在 场景 中 移动 搜索 任务 ; 
b) 发 现任 务 ， 通 过 自身 携带 的 传感器 获取 任务 和 环境 的 相 i 
oj 通过 影响 度 函 数 第 一 层 得 到 任务 的 类 型 is 和 等 级 a 信 a | 
息 ， 如 果 不 需 协作 救援 则 忽略 此 信息 ， 执 行 )， 否 则 执行 d); | 于 国 目 因 上 
d) 确 定 受灾 面积 5、 受 灾 人 数 、 受 损 房 屋 等 信息 执行 6); SE rt 二 
中 使 用 影响 度 函 数 第 二 层 中 与 _dis 对 应 的 灾害 类 获取 任务 但 ,ue 
的 具体 信息 ， 执 行 ; 加 从 内 
人 ) 将 筛选 出 的 信息 进行 加 工 并 存 入 缓存 ， 执 行 8); ‘ J 
四 状态 预测 算法 利用 缓存 中 的 信息 对 任务 、 个 体 、 环 境 等 图 3 二 维 仿真 场景 
的 状态 进行 预测 ， 得 到 预测 结果 并 发 送 给 总 指挥 agent， 执 行 表 1 实验 中 用 到 的 模型 信息 
h); 模型 名 称 ” 数量 (个 ) ”相关 属性 主要 任务 及 分 
h) 总 指挥 agent 根据 缓存 中 的 信息 和 预测 结果 制定 协作 策 。 ”搜索 Agent 20 搜索 。 处 理 信息 、 预 测 状 太 
咯 、 确 定 团队 成 员 和 指挥 gent， 执 行 ， 当 收 到 个 体 修改 协作 通信 Agent 20 通信 传输 协作 信息 
策略 的 信息 时 则 更 新 协作 策略 ， 执 行  ; 指挥 Agent 1 # 控 制定 策略 、 确 定 人 员 
向 团队 个 体 和 指挥 agent 发 送 协作 信息 ， 执 行 j); 消防 Agent 150 0sm/s 灭火、 营救 伤员 
j) 个 体 接收 协作 信息 ， 根 据 式 〈19) 计算 执行 相应 任务 的 。 警察 Agent 。 100 ”05m/k 。” 清 障 、 维 持 秩序 
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医生 Agent 80 0.5m/s 救助 伤员 5.3 仿真 结果 
救援 车 各 30 5mhs 灭火 、 清 障 、 救 护 动态 环境 中 , agent 在 协作 前 不 具备 全 局 动态 和 静态 环境 信 
防 员 Agent 150 Om/s 等 待 救援 息 ， 在 协作 过 程 中 也 无 法 获取 动态 障碍 物 的 移动 信息 ， 相 同 实 
房屋 50 受 损 倒塌 、 掩 埋 人 员 验 背 景 下 ,采用 同样 的 算法 参数 ， 进 行 第 一 组 实验 : agent 按照 
学 校 1 倒塌 倒塌 、 掩 埋 人 员 [5] 中 的 算法 进行 协作 ; agent 运用 文献 [6] 所 提 人 算法 协作 ; agent 
到 1 着 火 倒塌 、 掩 埋 人 员 使 用 本 文 提出 的 算法 进行 协作 ， 实 验 中 agent 的 最 终 目的 是 一 
障碍 物 若干 若 二 破坏 道路 、 移 动 致 的 ， 但 算法 的 收敛 速度 有 所 不 同 ， 实 验 结果 如 图 4 所 示 。 
其 他 若干 若干 增加 真实 性 8 
场景 主要 信息 如 下 ; 黄色 区 域 D 为 50m*50m 的 安置 所 ， | 

作用 是 安置 伤员 和 存放 物资 ， 黑 线条 表示 4m 宽 的 道路 ， 红 色 -文献 6 所 提 算 法 

圆圈 代表 静态 障碍 物 且 颜 色 深浅 代表 不 同 数 量 和 类 型 的 障碍 地 | 

物 ， 黑 色 方 块 代表 移动 障碍 物 且 无 碰撞 条 件 下 每 个 时 间 步 内 可 二 

随机 地 向 上 、 下 、 左 、 右 任意 方向 移动 一 个 栅 格 ; 灾害 类 型 dis 0 二 

和 等 级 a 共同 决定 建筑 物 的 受 损 情况 ， 蓝 色 区 域 表示 伤员 ， 且 i EE 

颜色 不 同 表示 受伤 类 型 和 伤 情 不 同 ， 假 设 救援 车 辆 在 场景 中 以 10| 

5m/s 匀速 运行 ， 每 辆 救护 车 配备 一 名 医生 Agent， 可 以 根据 任 5 2 让 

务 要 求 调整 医生 数量 ， 灭 火 消防 车 配 有 6 名 灭火 Agent， 同 时 仿真 周期 

携带 5000L 水 和 1000L 泡沫 ， 其 直流 射程 分 别 为 65m 和 60m， 图 4 算法 收敛 性 

假设 每 辆 车 灭火 范围 为 100 mr 且 灭 火速 度 为 2 mAs， 登 高 消防 

车 的 灭火 高 度 为 100m， 升 高 璧 顶端 救援 平台 可 一 次 救援 4 名 机 

成 年 人 ,工作 直径 为 20m 且 带 有 消防 水 炮 ; 清 障 车 主要 用 来 清 可 

除 道路 上 的 障碍 物 且 配 备 司机 Agent 和 指挥 Agent 各 一 名 ， 候 | 

设 其 清 障 速度 为 3 m3/s。 才 aor | 

5.2 Agent 建 模 前 四 世 # 站 文献 12 所 所 算法 | 
为 了 提高 仿真 的 效率 ， 需 要 明确 个 体 的 功能 ， 对 不 同 的 | 

agent 进行 建 模 并 对 其 行为 进行 约束 。 实 验 中 的 总 指挥 agent 的 2 一 本 文 所 提 算 法 

主要 功能 如 下 : a) 利用 相关 状态 和 已 有 的 分 配 算法 对 任务 进行 | 

分 配 , 确定 所 需 agent 的 种 类 和 数量 :b) 制定 协作 策略 , 确定 团 救援 时 间 

队 指挥 agent 并 向 协作 agent 发 送 协作 信息 ;c) 收 到 agent 反馈 图 5 救援 人 数 

的 信息 时 及 时 更 新 策略 :d) 存储 系统 内 agent、 环 境 、 救 援 车 辆 由 于 单 次 仿真 结果 具有 随机 性 ， 所 以 本 文 取 100 次 仿真 的 

等 状态 信息 。 团 内 指挥 agent 主要 功能 是 与 总 指挥 通信 ， 接 收 ”平均 值 作为 实验 结果 ， 仿 真 结果 表明 本 文 算法 的 收敛 速度 比 其 
发 送 协作 策略 ， 负 责 队 内 规划 。 他 两 种 算法 都 快 ， 这 种 差异 是 由 agent 在 协作 中 有 无 信息 处 理 
为 了 提高 数据 的 收集 速度 和 质量 ， 我 们 将 相关 传感器 布置 。 和 状态 预测 造成 的 。 文 献 [5] 所 提 算 法 ，agent 在 协作 救援 过 程 


在 搜索 agent 身上 ， 当 其 发 现任 务 时 可 以 及 时 感知 信息 降低 了 中 通过 相关 计算 得 到 联合 动作 ， 但 缺少 预测 算法 对 相关 状态 进 
获取 信息 的 时 间 。 搜 索 agent 的 主要 功能 如 下 : a) 携带 传感器 。 行 有 效 的 预测 ， 当 任务 出 现 突变 时 将 影响 算法 收敛 速度 和 协作 
感知 环境 、 其 他 agent、 任 务 等 信息 ;b) 使 用 影响 度 函 数 得 选 信 ”效率 。 文献 [6] 中 的 算法 ,在 agent 协作 过 程 中 加 入 了 状态 预测 ， 
息 ， 并 对 协作 进行 加 工 ;c) 使 用 函数 预测 任务 和 个 体 的 后 续 状 ”在 协作 中 可 以 对 障碍 物 、 个 体 、 任 务 的 状态 进行 预测 ， 但 其 信 
态 ;d) 接收 和 传递 信息 。 息 处 理 效率 低 ， 导 致 算法 的 收敛 率 和 任务 的 完成 率 较 低 。 本 文 
消防 agent 主要 负责 灭火 和 营救 伤员 , 警察 agent 主要 指挥 ” 考虑 上 述 问题 提出 将 信息 处 理 与 状态 预测 相 结 合并 改进 ， 明 显 
清 障 车 和 维持 秩序 ， 为 其 他 agent 提供 帮助 。 [医生 agent 主要 负 提高 了 算法 的 收敛 速度 。 原 因 首 先是 本 算法 没有 盲目 对 所 有 感 
责 救 治 伤员 ， 通 信 agent 主要 负责 个 体 间 的 信息 传输 。Agent ” 知 到 的 信息 进行 处 理 ， 而 是 只 筛选 对 协作 任务 有 影响 的 信息 ， 
有 三 个 行为 状态 及 空闲 、 忙 碌 、 执 行 任务 ， 且 有 8 个 移动 方位 ， 其 次 利用 筛选 出 的 信息 预测 相关 状态 并 制定 协作 策略 ， 受 到 干 
移动 速度 为 0.5 m/s， 发 生 碰撞 时 健康 值 减少 20， 受 到 火烧 、 撼 ”，” 扰 后 能 够 快速 找到 收敛 路 径 ， 从 而 提高 协作 效率 。 


埋 、 毒 气 等 意外 伤害 时 其 健康 值 根据 具体 情况 减少 ， 且 Agent 在 相同 信息 背景 下 ， 进 行 第 二 组 实验 : agent 运用 文献 [10] 
在 协作 时 可 根据 任务 需求 修改 动作 集 变换 其 职能 。 中 的 算法 进行 协作 ; agent 采用 文献 [11] 中 的 算法 进行 协作 ; 


agent 根据 文献 [12] 中 的 算法 进行 协作 ，agent 按照 本 文 所 提 算 


录用 稿 


法 进行 协作 ;得 到 四 
如 图 6 所 示 。 


种 算法 的 救援 人 数 如 图 5 所 示 ， 总 体 得 分 
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图 6 整体 得 分 


从 图 5 的 结果 可 以 得 出 本 文 算法 的 救援 人 数 高 于 文献 [12] 
是 因为 得 到 的 协作 信息 更 全 面 ， 提 高 了 预测 结果 的 正确 率 ， 且 
利用 动作 评价 和 触发 类 实现 协作 策略 的 动态 调整 ， 保 证 任务 能 


二 够 顺利 完成 。 文 献 [11] 因 信息 处 理 算法 的 复杂 度 较 高 进而 降低 
2 了 协作 的 效率 。 而 文献 [10] 难 以 得 到 最 优 的 协作 策略 ， 导 致 协 
二 作 效 率 低下 。 图 6 结论 进一步 说 明 本 文 所 提 算 法 的 性 能 优 于 其 
互生 法 。 

一 6 结束 语 

9 

= 本文 提出 了 一 种 适用 于 多 智能 体 协作 救援 的 算法 ， 该 算法 
将 影响 度 函数 和 状态 预测 相 结合 并 应 用 于 协作 救援 个 体 。 首 先 ， 
〇 信息 第 选 算法 在 保证 协作 信息 正确 率 的 前 提 下 同时 降低 了 个 体 
ON 间 的 通信 量 ， 提 高 通信 效率 ， 其 次 利用 筛选 出 的 信息 对 后 续 状 
全 态 进行 预测 并 根据 预测 结果 制定 协作 策略 ， 保 证 了 协作 的 正确 
> 人 性， 最 后 协作 个 体 根据 收益 值 对 协作 策略 进行 动态 的 修改 ， 保 
2 证 了 算法 的 收敛 性 和 健壮 性 ， 提 高 了 智能 体 的 决策 水 平 。 我 们 
三。 在 Unity 环境 中 对 所 提 算 法 的 有 效 性 进行 了 验证 ， 并 将 其 与 其 
(他 四 类 算法 进行 了 比较 ， 仿 真 结果 表明 所 提 算 法 的 性 能 明显 高 


于 其 他 算法 ， 即 能 够 正确 高 效 的 完成 协作 救援 任务 ， 可 以 给 救 
援 决 策 的 制定 提供 支持 。 
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